iT邦幫忙

2024 iThome 鐵人賽

DAY 16
0
生成式 AI

Microsoft Copilot與它的小夥伴們系列 第 16

Day16 - Copilot Chat實例09強大的視覺功能

  • 分享至 

  • xImage
  •  

https://ithelp.ithome.com.tw/upload/images/20240924/20103333U3TYBM6Zap.png

在2024四月Open AI發表了GPT4o, 並進行了一系列案例的展示, 其中底下這個案例完全震撼了筆者, 底下是可汗學院的創辦人, Sal Khan 正在教他兒子三角函數, 然後讓GPT4o可以存取麥克風與螢幕, 然後GPT4o就開始跟Sal與他兒子開始討論數學問題, 過程可以跟它「搶話」、打斷它說話, 彷彿跟真人討論一樣般的絲滑, 回到第一天所提到的工作象限表, 有一個職業因為這個範例將變顛覆, 那就是老師這個行業, 是不是又細思極恐呢? 每每看到這種驚人展示, 腦中都會想起一句經典名言 “你的毀滅與我何干?” , 沒錯這就是科技的進程啊! 現在只能先慶幸一下GPT4o講繁體中文還不太行/images/emoticon/emoticon10.gif
https://ithelp.ithome.com.tw/upload/images/20240924/20103333MwK5TB12Yx.png
https://www.youtube.com/watch?v=_nSmkyDNulk

那麼在Copilot Chat怎麼使用這個功能呢? 我們可以直接上傳圖片或是螢幕截圖如下
https://ithelp.ithome.com.tw/upload/images/20240924/20103333ULd75Sl9tC.png

  1. 點擊之後可以貼上圖片的網址或是直接從本機上傳如下
    https://ithelp.ithome.com.tw/upload/images/20240924/20103333T073RWdAE6.png

  2. 點擊之後可以開始擷取螢幕畫面如下
    https://ithelp.ithome.com.tw/upload/images/20240924/20103333bfpApWes0b.png

除此之外也可以複製貼上圖片. 接下來就來展示一下Copilot強大的視覺功能如下
https://ithelp.ithome.com.tw/upload/images/20240924/20103333HzbJu6NLVs.png

它可以正確無誤地找出發票資訊, 我們還可以指定辨識位置如下
https://ithelp.ithome.com.tw/upload/images/20240924/20103333ivGOuRBTLm.png

是不是猛猛的? 你可能覺得不過只是OCR辨識, 有必要這麼驚訝嗎? 這邊分享一個筆者實際專案, 去年接了一個台灣發票辨識專案, 做下去才知道台灣的發票種類大概有8種, 由於我們是非專業刻模型團隊, 而是打雜團隊要快速給出解決方案, 於是用Azure Cognitive Services去實作, 用幾十張不同類型的發票, 訓練出模型來使用, 前前後後研究SDK與調整圖形花了一個多月把功能上線, 效果也不錯, 準確率普遍有八成, 發票圖檔若是清晰幾乎可以到9成以上, 但是這個專案遇到底下兩個難題, 我們是排除這兩種發票類型, 才有這樣的準確率, 一個是加油站的點矩陣發票如下
https://ithelp.ithome.com.tw/upload/images/20240924/20103333QMYo3Ow48t.png

這個辨識不佳, 原因是印刷油墨的關係, 另一種發票則是常見的便利商店發票如下
https://ithelp.ithome.com.tw/upload/images/20240924/20103333F0uTsD21eA.png

這種發票辨識不佳的原因是每個廠商的格式都不太一樣, 有長有短. 當然解決這兩種辨識不佳的方法也是有的, 就是要去收集大量發票資料, 然後整理分類建模, 但是對於打雜團隊來說, 做這個CP值太低, 跟使用者溝通後, 發現這兩種每年不過幾十張, 不是大宗, 他們自己手打即可. 但故事還沒結束, 強者我同事, 看到GPT4o的視覺功能後, 就開始等Azure Open AI上架, 上架之後的實驗結果如下
https://ithelp.ithome.com.tw/upload/images/20240924/20103333ni6SlejnJB.png

是不是超猛的? 那個模糊的總計3087都被它猜出來, 於是強者我同事花了三天, 就把去年花了一個多月成果給替換, 連訓練都不用訓練, 只要Prompt寫得好, 並補全了這兩種發票類型, 這時那句話又默默地響起” 你的毀滅與我何干?”, 難怪每當Open AI有重大新作發表時, 就有AI新創死一堆啊!!!/images/emoticon/emoticon46.gif

https://ithelp.ithome.com.tw/upload/images/20240910/20103333uQHtI1vegT.png
https://www.facebook.com/groups/818139776290690
今年弄了個專頁, 歡迎加入討論, 可以收到貼文的更新通知/images/emoticon/emoticon07.gif


上一篇
Day15 - Copilot Chat實例08依照樣板產生內容
下一篇
Day17 - 小夥伴之Image Creator與DALL·E
系列文
Microsoft Copilot與它的小夥伴們17
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言